iT邦幫忙

gradient checkpointing相關文章
共有 1 則文章
鐵人賽 AI & Data DAY 26
LLM 學習筆記 系列 第 26

技術 LLM Note Day 26 - Gradient Checkpointing

簡介 當訓練資料的長度越長,需要的 GPU 記憶體就會越高,因為算出來的梯度會跟著變大。透過 Gradient Checkpointing 可以幫助我們減少梯度...